home *** CD-ROM | disk | FTP | other *** search
/ Technotools / Technotools (Chestnut CD-ROM)(1993).ISO / misc_pto / ctag02 / ctag.e < prev   
Text File  |  1991-09-12  |  68KB  |  1,996 lines

  1. /*
  2.  EPSHeader
  3.  
  4.    File: ctag.c
  5.    Author: J. Kercheval
  6.    Created: Sun, 07/14/1991  17:24:44
  7. */
  8. /*
  9.  EPSRevision History
  10.  
  11.    J. Kercheval  Sat, 07/27/1991  22:08:04  creation
  12.    J. Kercheval  Sun, 08/18/1991  20:58:13  completion of C_get_token()
  13.    J. Kercheval  Wed, 08/21/1991  22:34:49  place function recognition
  14.    J. Kercheval  Wed, 08/21/1991  23:11:17  add defines and macros
  15.    J. Kercheval  Wed, 08/21/1991  23:54:33  add typedef and class parsing
  16.    J. Kercheval  Thu, 08/22/1991  23:53:51  add global variables
  17.    J. Kercheval  Thu, 08/22/1991  23:54:05  add enum, struct, union
  18.    J. Kercheval  Thu, 08/22/1991  23:54:28  add globals via typedefs
  19.    J. Kercheval  Sun, 08/25/1991  23:09:28  complete semantic parser
  20.    J. Kercheval  Tue, 08/27/1991  23:28:34  fix bug in typedef, struct, enum and union declarations
  21.    J. Kercheval  Sat, 08/31/1991  23:58:03  add prototype parsing
  22.    J. Kercheval  Tue, 09/03/1991  22:28:55  move many macros to functions
  23.    J. Kercheval  Tue, 09/03/1991  23:05:34  clean code and consolidate to functions
  24.    J. Kercheval  Sun, 09/08/1991  13:24:53  minor bug fix in function and global variable parser
  25.    J. Kercheval  Sun, 09/08/1991  21:31:06  fix bug in lexical parser
  26.    J. Kercheval  Sun, 09/08/1991  23:44:46  \v is not a valid literal in Epsilon, remove it
  27.    J. Kercheval  Mon, 09/09/1991  21:49:00  fix bug in function parser
  28.    J. Kercheval  Mon, 09/09/1991  22:44:46  fix bug in define parser
  29.    J. Kercheval  Tue, 09/10/1991  22:06:09  fix typedef parser
  30.    J. Kercheval  Wed, 09/11/1991  02:04:48  add extern symbol recognition
  31.    J. Kercheval  Wed, 09/11/1991  19:49:11  fix bug in function pointer variable declaration
  32.    J. Kercheval  Wed, 09/11/1991  20:38:13  add support for function pointer variable declarations after first declaration
  33.    J. Kercheval  Wed, 09/11/1991  21:51:37  move #directive parsing between semantic and lexical parser
  34.    J. Kercheval  Thu, 09/12/1991  22:44:43  add support for #ifdef blocks to avoid unmatched parens in ToLevelZero parsing
  35.    J. Kercheval  Fri, 09/13/1991  01:17:05  add when_loading() to remap def_srch_case_map[]
  36. */
  37.  
  38. /*
  39.  * This file implements tagging for .C, .H and .E files which contain
  40.  * standard C and C++ syntax.  This file defines no new commands and
  41.  * is intended to work with the tags package included with V5.0 of Epsilon.
  42.  * There is no problem using modified tags packages providing calls are made
  43.  * to tags_suffix_???() routines in the same way Epsilon does this and that
  44.  * an output routine add_tag() is used.  All that should be required is to
  45.  * compile and load this file and this module will be used transparently to
  46.  * you.  If you wish to costumize the types of tags output modify the global
  47.  * variables CTagWant?????? which when TRUE allow the output of that type of
  48.  * tag and when FALSE prohibit that type of tag.
  49.  *
  50.  * This module implements tagging for union, struct, enum, typedef, #define,
  51.  * global variables, classes, prototypes and functions (all of which may be
  52.  * specifically turned on and off.  The performance cost for this level of
  53.  * accuracyis not trivial.  This parser knows a lot about the syntax of C and
  54.  * takes a fair amount of time.  You should expect to see a file complete
  55.  * somewhere in the range of 125%-150% of the time as Lugaru's tagger for C.
  56.  * This is not only because of the detail of the tags but also the larger
  57.  * number of them.  This tagger is not intended to do all of your work for
  58.  * you but is designed to be used in conjunction with the tags generator I
  59.  * have developed and is now available.  This file implements the same
  60.  * lexical and semantic parser as is found in that executable.  Use the
  61.  * executable in your make file for very fast and updated tags.  If you have
  62.  * problems finding it, contact me and I can point the way...
  63.  *
  64.  * There is defined at the end of this module a when_loading() function which
  65.  * alters the default search case map to allow *correct* (or at least
  66.  * consistent sorting with sort routines external to Epsilon.  In particular,
  67.  * to produce the same sort order as any UNIX, VMS or HP style sort or with
  68.  * the tags generator this module is supposed to coexist with this mapping
  69.  * must be done.  You should see no difference in the location of sorted
  70.  * buffers except for lines starting with ^, [, \, ] and _.
  71.  *
  72.  * This code is dedicated to the public domain with the caveat that Lugaru is
  73.  * welcome to use this within their distribution source code which is
  74.  * supplied with Epsilon.
  75.  *
  76.  * Good Tagging,
  77.  *
  78.  *      jbk@wrq.com
  79.  *
  80.  *      John Kercheval
  81.  *      127 NW Bowdoin Pl #105
  82.  *      Seattle, WA  98107-4960
  83.  *      September 8, 1991
  84.  */
  85.  
  86. #include <eel.h>
  87.  
  88. #define BOOLEAN int
  89. #define TRUE 1
  90. #define FALSE 0
  91.  
  92. #define CBUFSIZE 4096
  93. #define MAX_TOKEN_LENGTH 4096
  94.  
  95.  
  96. /* the following variable determine the behavior of the parser with respect
  97.  * to the token types which are output as a tag.  Note that use of the
  98.  * CTagWantExtern variable is a modifier and will only be effective when
  99.  * other options are used (ie. CTagWantProtoType must be specified to obtain
  100.  * extern prototypes, CTagWantExtern alone yields nothing).  Note also that
  101.  * the CTagWantExtern modifier has no effect for function, define and macro
  102.  * tags which are tagged only according only to the CTagWantFunction,
  103.  * CTagWantDefine and CTagWantMacro variables respectively.
  104.  */
  105. BOOLEAN CTagWantFunction = TRUE;
  106. BOOLEAN CTagWantProtoType = FALSE;
  107. BOOLEAN CTagWantStructure = TRUE;
  108. BOOLEAN CTagWantTypeDefinition = TRUE;
  109. BOOLEAN CTagWantMacro = TRUE;
  110. BOOLEAN CTagWantEnumeration = TRUE;
  111. BOOLEAN CTagWantUnion = TRUE;
  112. BOOLEAN CTagWantGlobalVariable = TRUE;
  113. BOOLEAN CTagWantClass = TRUE;
  114. BOOLEAN CTagWantDefine = TRUE;
  115. BOOLEAN CTagWantExtern = FALSE;
  116.  
  117.  
  118. /* function for determining if character is whitespace */
  119. #define IsWhite(c) ( _C_white_boolean_table[c] )
  120.  
  121. /* the indexed table for white space character lookup */
  122. BOOLEAN _C_white_boolean_table[256];
  123.  
  124. /* list of whitespace characters */
  125. char C_white[] = " \f\t\n\r";
  126.  
  127.  
  128. /* function for determining if character is a delimiter */
  129. #define IsDelim(c) ( _C_delim_boolean_table[c] )
  130.  
  131. /* the indexed table for token delimiter lookup */
  132. BOOLEAN _C_delim_boolean_table[256];
  133.  
  134. /* list of token delimiters */
  135. char C_delim[] = " \f\t\n\r\"[](){}#;:,.'=-+*/%&|^~!<>?";
  136.  
  137.  
  138. /* function for determining if character is a puncuator */
  139. #define IsPunctuator(c) ( _C_punctuator_boolean_table[c] )
  140.  
  141. /* the indexed table for punctuator character lookup */
  142. BOOLEAN _C_punctuator_boolean_table[256];
  143.  
  144. /* list of punctuators */
  145. char C_declaration_delim[] = "[](){},;=";
  146.  
  147.  
  148. char C_open_brace[] = "{[(";    /* open brace set */
  149. char C_close_brace[] = ")]}";   /* close brace set */
  150.  
  151.  
  152. /*
  153.  * These defines are used to denote the type of the current tag
  154.  */
  155. #define NOP 0
  156. #define Function 1
  157. #define ProtoType 2
  158. #define Structure 3
  159. #define TypeDefinition 4
  160. #define Macro 5
  161. #define Enumeration 6
  162. #define Union 7
  163. #define GlobalVariable 8
  164. #define Class 9
  165. #define Define 10
  166. #define Extern 11
  167.  
  168. /* convenient definition */
  169. typedef int SymbolType;
  170.  
  171.  
  172. /* the current file buffer state */
  173. typedef struct BufferStruct {
  174.     int token_line_location;    /* current token line in buffer */
  175.     char *inbuf;                /* the buffer currently being parsed */
  176. } Buffer;
  177.  
  178.  
  179. /* the current input token state */
  180. typedef struct TokenStruct {
  181.     char sbuf1[MAX_TOKEN_LENGTH];       /* the first token buffer */
  182.     int charloc1;               /* the char location of sbuf1 */
  183.     int tokenline1;             /* the line number of sbuf1 */
  184.  
  185.     char sbuf2[MAX_TOKEN_LENGTH];       /* the second token buffer */
  186.     int charloc2;               /* the char location of sbuf2 */
  187.     int tokenline2;             /* the line number of sbuf2 */
  188.  
  189.     char *cur_token;            /* pointer to the current token buffer */
  190.     int *cur_char_location;     /* the location of current token */
  191.     int *cur_token_line;        /* the line of the current token */
  192.  
  193.     char *prev_token;           /* pointer to the last token buffer */
  194.     int *prev_char_location;    /* the location of previous token */
  195.     int *prev_token_line;       /* the line of the previous token */
  196.  
  197.     int token_count;            /* temporary variable, used by ToPunctuator */
  198.     int else_nesting_level;     /* the current nesting level */
  199.  
  200.     BOOLEAN extern_active;      /* minor state for this statement */
  201. } Token;
  202.  
  203.  
  204. #define SYMBOL_SIZE 20
  205.  
  206. /* a list of known C tokens and keywords */
  207. char C_token_list[][SYMBOL_SIZE] =
  208. {
  209.     "*ivclsdfuaretp_hn",        /* list of starting characters of symbols
  210.                                  * below */
  211.     "*",                        /* pointer */
  212.     "int",                      /* integer declaration */
  213.     "void",                     /* void type */
  214.     "char",                     /* character */
  215.     "long",                     /* long integer */
  216.     "short",                    /* short integer */
  217.     "double",                   /* double floating point */
  218.     "float",                    /* floating point */
  219.     "signed",                   /* signed integer */
  220.     "unsigned",                 /* unsigned integer */
  221.     "auto",                     /* auto variable (local duration) */
  222.     "register",                 /* register variable */
  223.     "static",                   /* static variable */
  224.     "struct",                   /* structure define */
  225.     "union",                    /* union define */
  226.     "enum",                     /* enum defined */
  227.     "typedef",                  /* type definition */
  228.     "const",                    /* constant variable */
  229.     "extern",                   /* external declaration */
  230.     "class",                    /* class declaration */
  231.     "friend",                   /* class modifier */
  232.     "private",                  /* class modifier */
  233.     "protected",                /* class modifier */
  234.     "public",                   /* class modifier */
  235.     "volatile",                 /* Compiler warning */
  236.     "_based",                   /* pointer type */
  237.     "_cdecl",                   /* parameter calling sequence, C style */
  238.     "cdecl",                    /* parameter calling sequence, C style */
  239.     "_far",                     /* pointer type */
  240.     "far",                      /* pointer type */
  241.     "_huge",                    /* pointer type */
  242.     "huge",                     /* pointer type */
  243.     "_near",                    /* pointer type */
  244.     "near",                     /* pointer type */
  245.     "_pascal",                  /* parameter calling sequence, PASCAL style */
  246.     "pascal",                   /* parameter calling sequence, PASCAL style */
  247.     "_fortran",                 /* parameter calling sequence, FORTRAN style */
  248.     "_fastcall",                /* parameter calling sequence, via registers */
  249.     "\0"
  250. };
  251.  
  252.  
  253. /*----------------------------------------------------------------------------
  254.  *
  255.  * CParserInit() initializes the tables required by the parser. The tables
  256.  * used are a simple boolean index which are true if the character
  257.  * corresponding to the index is a member of the associated table.
  258.  *
  259.  ---------------------------------------------------------------------------*/
  260.  
  261. CParserInit()
  262. {
  263.     char *s;
  264.     int i;
  265.  
  266.     /* init the entire block to FALSE */
  267.     for (i = 0; i < 256; i++) {
  268.         _C_delim_boolean_table[i] = FALSE;
  269.         _C_white_boolean_table[i] = FALSE;
  270.         _C_punctuator_boolean_table[i] = FALSE;
  271.     }
  272.  
  273.     /* set the characters in the delim set to TRUE */
  274.     for (s = C_delim; *s; s++) {
  275.         _C_delim_boolean_table[*s] = TRUE;
  276.     }
  277.  
  278.     /* set the characters in the white set to TRUE */
  279.     for (s = C_white; *s; s++) {
  280.         _C_white_boolean_table[*s] = TRUE;
  281.     }
  282.  
  283.     /* set the characters in the punctuator set to TRUE */
  284.     for (s = C_declaration_delim; *s; s++) {
  285.         _C_punctuator_boolean_table[*s] = TRUE;
  286.     }
  287. }
  288.  
  289.  
  290. /*----------------------------------------------------------------------------
  291.  *
  292.  * strchr() is the standard string library function strchr()
  293.  *
  294.  ---------------------------------------------------------------------------*/
  295.  
  296. char *strchr(s, c)
  297.     char *s;
  298.     char c;
  299. {
  300.     char *ret = s;
  301.  
  302.     while (*ret) {
  303.         if (*ret == c)
  304.             return ret;
  305.         ret++;
  306.     }
  307.  
  308.     if (*ret == c)
  309.         return ret;
  310.  
  311.     return NULL;
  312. }
  313.  
  314.  
  315. /*----------------------------------------------------------------------------
  316.  *
  317.  * FillBuffer() fills the passed buffer parameter with bufsize characters
  318.  * (or as many as are available) and places and null character '\0' at the
  319.  * end of the buffer.  This routine returns TRUE if successful and FALSE if
  320.  * eof(infile) is true.  Note: if a bufsize parameter is passed and the read
  321.  * is successful for bufsize characters, then buffer[bufsize] will be
  322.  * overwritten with the null character.  Do not pass a bufsize the maximum
  323.  * size of the buffer.  This null terminated buffering scheme assumes the
  324.  * source file has no null character embedded within it.
  325.  *
  326.  ---------------------------------------------------------------------------*/
  327.  
  328. BOOLEAN FillBuffer(inbuf, ctag_buffer, bufsize)
  329.     char *inbuf;
  330.     char *ctag_buffer;
  331.     int bufsize;
  332. {
  333.     char *old_buf;
  334.     int new_point;
  335.  
  336.     /* init buffer */
  337.     *ctag_buffer = '\0';
  338.  
  339.     /* go to the input buffer */
  340.     old_buf = bufname;
  341.     bufname = inbuf;
  342.  
  343.     /* return if end of buffer */
  344.     if (point == size())
  345.         return FALSE;
  346.  
  347.     /* read the buffer from the file */
  348.     if (point + bufsize > size()) {
  349.         new_point = size();
  350.     }
  351.     else {
  352.         new_point = point + bufsize;
  353.     }
  354.     grab(point, new_point, ctag_buffer);
  355.  
  356.     /* place the end of buffer mark, adjust point and return success */
  357.     ctag_buffer[new_point - point] = '\0';
  358.     point = new_point;
  359.     return TRUE;
  360. }
  361.  
  362.  
  363. /*----------------------------------------------------------------------------
  364.  *
  365.  * CSymbolWanted() returns true if flags are true for the symbol type passed
  366.  * and false otherwise.
  367.  *
  368.  ---------------------------------------------------------------------------*/
  369.  
  370. BOOLEAN CSymbolWanted(type)
  371.     SymbolType type;
  372. {
  373.     switch (type) {
  374.         case Function:
  375.             return CTagWantFunction;
  376.             break;
  377.         case ProtoType:
  378.             return CTagWantProtoType;
  379.             break;
  380.         case GlobalVariable:
  381.             return CTagWantGlobalVariable;
  382.             break;
  383.         case Define:
  384.             return CTagWantDefine;
  385.             break;
  386.         case Macro:
  387.             return CTagWantMacro;
  388.             break;
  389.         case Structure:
  390.             return CTagWantStructure;
  391.             break;
  392.         case TypeDefinition:
  393.             return CTagWantTypeDefinition;
  394.             break;
  395.         case Enumeration:
  396.             return CTagWantEnumeration;
  397.             break;
  398.         case Union:
  399.             return CTagWantUnion;
  400.             break;
  401.         case Class:
  402.             return CTagWantClass;
  403.             break;
  404.         default:
  405.             return FALSE;
  406.             break;
  407.     }
  408. }
  409.  
  410.  
  411. /*----------------------------------------------------------------------------
  412.  *
  413.  * CTokenType() takes the token passed and determines if the token is a
  414.  * special token.  Special tokens require specialized handling in the parser.
  415.  * The function returns the type of token according to the SymbolTypeEnum
  416.  * enumeration.  This routine can only tell so much from one symbol but will
  417.  * return some type for all the *interesting* tokens.  Anything that is
  418.  * loosely defined is given back with the closest type available and the
  419.  * parser must give it contextual meaning
  420.  *
  421.  ---------------------------------------------------------------------------*/
  422.  
  423. SymbolType CTokenType(token)
  424.     char *token;
  425. {
  426.     /* look for dirty rejection */
  427.     if (!strchr("cestu#", token[0]))
  428.         return NOP;
  429.  
  430.     /* macro and non macro defines */
  431.     if (!strcmp(token, "#"))
  432.         return Define;
  433.  
  434.     /* structure declarations */
  435.     if (!strcmp(token, "struct"))
  436.         return Structure;
  437.  
  438.     /* type declaration */
  439.     if (!strcmp(token, "typedef"))
  440.         return TypeDefinition;
  441.  
  442.     /* enumeration declaration */
  443.     if (!strcmp(token, "enum"))
  444.         return Enumeration;
  445.  
  446.     /* union declaration */
  447.     if (!strcmp(token, "union"))
  448.         return Union;
  449.  
  450.     /* class declaration */
  451.     if (!strcmp(token, "class"))
  452.         return Class;
  453.  
  454.     /* do not recognize it as anything special */
  455.     return NOP;
  456. }
  457.  
  458.  
  459. /*----------------------------------------------------------------------------
  460.  *
  461.  * CIsDeclarationToken() takes the token passed and determines if the token
  462.  * is a declaration keyword used in C.  The user may define new declaration
  463.  * keywords via use of the typedef keyword.  This alters the syntax of C.  If
  464.  * the syntax is changed in this way it is probable that this routine would
  465.  * not return the correct value.  For the standard uses of this routine that
  466.  * information should not hinder performance for the vast majority of the
  467.  * cases.
  468.  *
  469.  ---------------------------------------------------------------------------*/
  470.  
  471. BOOLEAN CIsDeclarationToken(token)
  472.     char *token;
  473. {
  474.     int index;
  475.  
  476.     /* look for dirty rejection */
  477.     if (!strchr(C_token_list[0], token[0]))
  478.         return FALSE;
  479.  
  480.     /* march through array until membership is determined */
  481.     for (index = 1; *C_token_list[index]; (index)++) {
  482.  
  483.         /* return true if token found */
  484.         if (!strcmp(token, C_token_list[index])) {
  485.             return TRUE;
  486.         }
  487.     }
  488.  
  489.     /* did not find it */
  490.     return FALSE;
  491. }
  492.  
  493.  
  494. /*----------------------------------------------------------------------------
  495.  *
  496.  * COutputToken() will output a token of a given type.  The token is output
  497.  * if the passed token type is requested from the command line.
  498.  *
  499.  ---------------------------------------------------------------------------*/
  500.  
  501. COutputToken(token, token_buffer, token_type, infname, outbuf)
  502.     Token *token;
  503.     Buffer *token_buffer;
  504.     SymbolType token_type;
  505.     char *infname;
  506.     char *outbuf;
  507. {
  508.     /* check that the symbol is wanted and output it if so */
  509.     if (CSymbolWanted(token_type)) {
  510.  
  511.         if (token->extern_active) {
  512.             if (!CTagWantExtern) {
  513.                 if (token_type != Function &&
  514.                     token_type != Define &&
  515.                     token_type != Macro) {
  516.                     return;
  517.                 }
  518.             }
  519.         }
  520.         add_tag(token->prev_token, infname,
  521.                 *(token->prev_char_location) -
  522.                 strlen(token->prev_token));
  523.     }
  524. }
  525.  
  526.  
  527. /*----------------------------------------------------------------------------
  528.  *
  529.  * CGetToken() will obtain the next token in the line pointed to by lptr
  530.  * and in addition will return FALSE if EOL is reached or a comment character
  531.  * is the first non whitespace character found.  This routine is passed an
  532.  * inbut buffer (Cbuf) and a current pointer into the buffer.  It is the
  533.  * responsibility of this routine to refill the buffer if required.  Quoted
  534.  * strings and single quoted characters are returned as a single token.
  535.  * Comments are completely ignored by this parser.
  536.  *
  537.  ---------------------------------------------------------------------------*/
  538.  
  539. BOOLEAN CGetToken(inbuf, token, line_number)
  540.     char *inbuf;
  541.     char *token;
  542.     int *line_number;
  543. {
  544.     /* a state of the lexical parser */
  545. #define Parse 0
  546. #define BeginCommentMaybe 1
  547. #define InComment 2
  548. #define InCommentEndMaybe 3
  549. #define InCPPComment 4
  550. #define InQuoteNormal 5
  551. #define InQuoteLiteral 6
  552. #define InSingleQuoteNormal 7
  553. #define InSingleQuoteLiteral 8
  554. #define WhiteSpace 9
  555. #define Exit 10
  556.  
  557.     typedef int State;
  558.  
  559.     State current_state;        /* the current state of the parser */
  560.  
  561.     char c;                     /* the current character being examined */
  562.     char *t;                    /* pointer into token */
  563.  
  564.     /* init */
  565.     current_state = WhiteSpace;
  566.     t = token;
  567.     *t = '\0';
  568.  
  569.     /* parse the file for the next token */
  570.     while (TRUE) {
  571.  
  572.         /* if the buffer has been completely used, return FALSE */
  573.         if (point == size())
  574.             return FALSE;
  575.  
  576.         c = curchar();
  577.         point++;
  578.  
  579.         /* react on the state machine */
  580.         switch (current_state) {
  581.  
  582.             case Parse:
  583.                 switch (c) {
  584.  
  585.                     case '/':
  586.  
  587.                         /* return if we already have a token */
  588.                         if (t != token) {
  589.                             point--;
  590.                             current_state = Exit;
  591.                         }
  592.                         else {
  593.                             /* this may be the begin if a comment or the
  594.                              * division symbol, read the next character after
  595.                              * verifying it the buffer doesn't need refilling */
  596.                             current_state = BeginCommentMaybe;
  597.                             *t = c;
  598.                         }
  599.                         break;
  600.  
  601.                     case '\"':
  602.  
  603.                         /* return if we already have a token */
  604.                         if (t != token) {
  605.                             point--;
  606.                             current_state = Exit;
  607.                         }
  608.                         else {
  609.                             current_state = InQuoteNormal;
  610.                             *t++ = c;
  611.                         }
  612.                         break;
  613.  
  614.                     case '\'':
  615.  
  616.                         /* return if we already have a token */
  617.                         if (t != token) {
  618.                             point--;
  619.                             current_state = Exit;
  620.                         }
  621.                         else {
  622.                             current_state = InSingleQuoteNormal;
  623.                             *t++ = c;
  624.                         }
  625.                         break;
  626.  
  627.                     default:
  628.  
  629.                         /* if it is a delimiter than stop processing */
  630.                         if (IsDelim(c)) {
  631.  
  632.                             /* if a token exists then back up in buffer */
  633.                             if (t != token) {
  634.                                 point--;
  635.                             }
  636.                             else {
  637.                                 *t++ = c;
  638.                             }
  639.                             current_state = Exit;
  640.                         }
  641.                         else {
  642.  
  643.                             /* normal character, store it in the token */
  644.                             *t++ = c;
  645.                         }
  646.                         break;
  647.                 }
  648.                 break;
  649.  
  650.             case WhiteSpace:
  651.  
  652.                 /* pass over whitespace, backup one char if no longer in
  653.                  * white space region */
  654.                 if (!IsWhite(c)) {
  655.                     current_state = Parse;
  656.                     point--;
  657.                 }
  658.                 else {
  659.  
  660.                     /* check for newline */
  661.                     if (c == '\n') {
  662.                         (*line_number)++;
  663.                     }
  664.                 }
  665.                 break;
  666.  
  667.             case BeginCommentMaybe:
  668.                 switch (c) {
  669.  
  670.                     case '/':
  671.                         current_state = InCPPComment;
  672.                         break;
  673.  
  674.                     case '*':
  675.                         current_state = InComment;
  676.                         break;
  677.  
  678.                     default:
  679.                         t++;
  680.                         point--;
  681.                         current_state = Exit;
  682.                         break;
  683.                 }
  684.                 break;
  685.  
  686.             case InComment:
  687.                 switch (c) {
  688.  
  689.                     case '*':
  690.                         /* this is potentially the end of the comment */
  691.                         current_state = InCommentEndMaybe;
  692.                         break;
  693.  
  694.                     default:
  695.                         /* just keep on going and check for newline */
  696.                         if (c == '\n') {
  697.                             (*line_number)++;
  698.                         }
  699.                         break;
  700.                 }
  701.                 break;
  702.  
  703.             case InCommentEndMaybe:
  704.                 switch (c) {
  705.  
  706.                     case '/':
  707.                         /* this is indeed the end of the comment */
  708.                         current_state = WhiteSpace;
  709.                         break;
  710.  
  711.                     case '*':
  712.                         /* this is also perhaps the end of comment */
  713.                         break;
  714.  
  715.                     case '\n':
  716.                         /* new line just increment state variables */
  717.                         if (c == '\n') {
  718.                             (*line_number)++;
  719.                         }
  720.  
  721.                     default:
  722.                         /* still part of the current comment */
  723.                         current_state = InComment;
  724.                         break;
  725.                 }
  726.                 break;
  727.  
  728.             case InCPPComment:
  729.                 if (c == '\n') {
  730.                     current_state = WhiteSpace;
  731.                     (*line_number)++;
  732.                 }
  733.                 break;
  734.  
  735.             case InQuoteNormal:
  736.                 switch (c) {
  737.  
  738.                     case '\"':
  739.                         /* end of InQuoteNormal state */
  740.                         current_state = Exit;
  741.                         break;
  742.  
  743.                     case '\\':
  744.                         /* InQuoteLiteral state */
  745.                         current_state = InQuoteLiteral;
  746.                         break;
  747.  
  748.                     default:
  749.                         /* normal dull behavior */
  750.                         break;
  751.                 }
  752.                 *t++ = c;
  753.                 break;
  754.  
  755.             case InQuoteLiteral:
  756.                 /* this char is simply copied */
  757.                 current_state = InQuoteNormal;
  758.                 *t++ = c;
  759.                 break;
  760.  
  761.             case InSingleQuoteNormal:
  762.                 switch (c) {
  763.  
  764.                     case '\'':
  765.                         /* end of InSingleQuoteNormal state */
  766.                         current_state = Exit;
  767.                         break;
  768.  
  769.                     case '\\':
  770.                         /* InQuoteLiteral state */
  771.                         current_state = InSingleQuoteLiteral;
  772.                         break;
  773.  
  774.                     default:
  775.                         /* should not be reached */
  776.                         break;
  777.                 }
  778.                 *t++ = c;
  779.                 break;
  780.  
  781.             case InSingleQuoteLiteral:
  782.                 /* this char is simply copied */
  783.                 current_state = InSingleQuoteNormal;
  784.                 *t++ = c;
  785.                 break;
  786.  
  787.             case Exit:
  788.                 *t = '\0';
  789.                 point--;
  790.                 return TRUE;
  791.                 break;
  792.  
  793.             default:            /* not reached */
  794.                 break;
  795.         }
  796.     }
  797. }
  798.  
  799.  
  800. /*----------------------------------------------------------------------------
  801.  *
  802.  * CFillToken() will obtain the next lexical parser from the buffer and move
  803.  * the token into the Token structure.  TRUE is returned if the lexical
  804.  * parser returns TRUE, otherwise FALSE is returned.
  805.  *
  806.  ---------------------------------------------------------------------------*/
  807.  
  808. BOOLEAN CFillToken(token, token_buffer)
  809.     Token *token;
  810.     Buffer *token_buffer;
  811. {
  812.     BOOLEAN token_found;
  813.  
  814.     /* obtain the next token */
  815.     token_found = CGetToken(token_buffer->inbuf,
  816.                             token->cur_token,
  817.                             &(token_buffer->token_line_location));
  818.  
  819.     /* if one is around then update the state for that token */
  820.     if (token_found) {
  821.         /* update location variables */
  822.         *(token->cur_char_location) = point;
  823.         *(token->cur_token_line) = token_buffer->token_line_location;
  824.     }
  825.  
  826.     return token_found;
  827. }
  828.  
  829.  
  830. /*----------------------------------------------------------------------------
  831.  *
  832.  * CTokenSwap() will swap the token variables and set the prev_ variables
  833.  * correctly
  834.  *
  835.  ---------------------------------------------------------------------------*/
  836.  
  837. CTokenSwap(token)
  838.     Token *token;
  839. {
  840.     char *charswap;             /* temporary swap variable */
  841.     int *longintswap;           /* temporary swap variable */
  842.  
  843.     /* swap the active token string */
  844.     charswap = token->cur_token;
  845.     token->cur_token = token->prev_token;
  846.     token->prev_token = charswap;
  847.  
  848.     /* swap the active character location */
  849.     longintswap = token->cur_char_location;
  850.     token->cur_char_location = token->prev_char_location;
  851.     token->prev_char_location = longintswap;
  852.  
  853.     /* swap the active line */
  854.     longintswap = token->cur_token_line;
  855.     token->cur_token_line = token->prev_token_line;
  856.     token->prev_token_line = longintswap;
  857. }
  858.  
  859.  
  860. /*----------------------------------------------------------------------------
  861.  *
  862.  * CDiscardLine() will move past all the characters up to the next EOL that
  863.  * is not preceded by a line continuation character.  This routine will
  864.  * return TRUE if there was a '(' character as the first character.  This
  865.  * return value is useful for determining if #defines are macros or simple
  866.  * defines.
  867.  *
  868.  ---------------------------------------------------------------------------*/
  869.  
  870. BOOLEAN CDiscardLine(inbuf, line_number)
  871.     char *inbuf;
  872.     int *line_number;
  873. {
  874.     char c;                     /* the current character being examined */
  875.  
  876.     BOOLEAN line_continue;      /* TRUE if line continuation true */
  877.     BOOLEAN is_macro;           /* TRUE if the first delimiter char is '(' */
  878.     BOOLEAN first_char;         /* TRUE when first character is active */
  879.  
  880.     /* init */
  881.     c = '\0';
  882.     line_continue = FALSE;
  883.     is_macro = FALSE;
  884.     first_char = TRUE;
  885.  
  886.     /* if the end of buffer is reached then return */
  887.     if (point == size())
  888.         return is_macro;
  889.  
  890.     /* loop until non continued EOL encountered */
  891.     do {
  892.  
  893.         /* determine if the first character is a '(' */
  894.         if (first_char) {
  895.             if (c == '(')
  896.                 is_macro = TRUE;
  897.             first_char = FALSE;
  898.         }
  899.  
  900.         /* handle the newline */
  901.         if (c == '\n') {
  902.             line_continue = FALSE;
  903.             (*line_number)++;
  904.         }
  905.  
  906.         c = curchar();
  907.         point++;
  908.  
  909.         if (c == '\\')
  910.             line_continue = TRUE;
  911.  
  912.  
  913.     } while (c != '\n' || line_continue);
  914.  
  915.     (*line_number)++;
  916.     return is_macro;
  917. }
  918.  
  919.  
  920. /*----------------------------------------------------------------------------
  921.  *
  922.  * CParseDefine() will parse macros and defines in standard C syntax
  923.  * distinguish between a macro and a define, if there is a punctuator '(',
  924.  * then it is a macro.  Take the token just before the first space or
  925.  * punctuator
  926.  *
  927.  ---------------------------------------------------------------------------*/
  928.  
  929. CParseDefine(token, token_buffer, infname, outbuf)
  930.     Token *token;
  931.     Buffer *token_buffer;
  932.     char *infname;
  933.     char *outbuf;
  934. {
  935.     SymbolType tmptype;         /* a temporay type variable */
  936.  
  937.     BOOLEAN token_found;
  938.     BOOLEAN is_macro;
  939.  
  940.     token_found = CFillToken(token, token_buffer);
  941.     if (token_found) {
  942.  
  943.         /* save the previous values */
  944.         CTokenSwap(token);
  945.  
  946.  
  947.         /* get rid of the rest of the line and return the define type */
  948.         is_macro =
  949.             CDiscardLine(token_buffer->inbuf,
  950.                          &(token_buffer->token_line_location));
  951.  
  952.         /* react on the token */
  953.         if (is_macro) {
  954.             tmptype = Macro;
  955.         }
  956.         else {
  957.             tmptype = Define;
  958.         }
  959.  
  960.         /* output the token */
  961.         COutputToken(token, token_buffer, tmptype,
  962.                      infname, outbuf);
  963.     }
  964. }
  965.  
  966.  
  967. /*----------------------------------------------------------------------------
  968.  *
  969.  * CParsePreprocessorDirective() will parse preprocessor directives in
  970.  * standard C syntax
  971.  *
  972.  ---------------------------------------------------------------------------*/
  973.  
  974. CParsePreprocessorDirective(token, token_buffer, infname, outbuf)
  975.     Token *token;
  976.     Buffer *token_buffer;
  977.     char *infname;
  978.     char *outbuf;
  979. {
  980.     BOOLEAN token_found;
  981.  
  982.     token_found = CFillToken(token, token_buffer);
  983.     if (token_found) {
  984.  
  985.         /* deal with a define directive */
  986.         if (!strcmp(token->cur_token, "define")) {
  987.             CParseDefine(token, token_buffer, infname, outbuf);
  988.         }
  989.         else {
  990.  
  991.             /* increment the else block level pointer */
  992.             if (!strcmp(token->cur_token, "else")) {
  993.                 token->else_nesting_level++;
  994.             }
  995.             else {
  996.  
  997.                 /* decrement the else block level pointer */
  998.                 if (!strcmp(token->cur_token, "endif")) {
  999.                     if (token->else_nesting_level)
  1000.                         token->else_nesting_level--;
  1001.                 }
  1002.                 else {
  1003.  
  1004.                     /* if an else has not already been seen then increment
  1005.                      * the level */
  1006.                     if (!strcmp(token->cur_token, "elif")) {
  1007.                         token->else_nesting_level++;
  1008.                     }
  1009.                 }
  1010.             }
  1011.  
  1012.             /* remove the rest of the directive line including line
  1013.              * continuation characters */
  1014.             CDiscardLine(token_buffer->inbuf,
  1015.                          &(token_buffer->token_line_location));
  1016.         }
  1017.     }
  1018. }
  1019.  
  1020.  
  1021. /*----------------------------------------------------------------------------
  1022.  *
  1023.  * CNextToken() will obtain the next token in the buffer and update the
  1024.  * appropriate variables.
  1025.  *
  1026.  ---------------------------------------------------------------------------*/
  1027.  
  1028. BOOLEAN CNextToken(token, token_buffer, infname, outbuf)
  1029.     Token *token;
  1030.     Buffer *token_buffer;
  1031.     char *infname;
  1032.     char *outbuf;
  1033. {
  1034.     BOOLEAN token_found;
  1035.     BOOLEAN cycle;
  1036.  
  1037.     do {
  1038.         /* obtain the next token */
  1039.         token_found = CFillToken(token, token_buffer);
  1040.  
  1041.         /* check for preprocessing directives and parse them if found */
  1042.         if (token->cur_token[0] == '#' && token_found) {
  1043.  
  1044.             /* parse the directive and loop back to get another token */
  1045.             CParsePreprocessorDirective(token, token_buffer, infname, outbuf);
  1046.             cycle = TRUE;
  1047.         }
  1048.         else {
  1049.  
  1050.             /* we found a token to pass to the semantic parser */
  1051.             cycle = FALSE;
  1052.         }
  1053.     } while (cycle);
  1054.  
  1055.     /* return it */
  1056.     return token_found;
  1057. }
  1058.  
  1059.  
  1060. /*----------------------------------------------------------------------------
  1061.  *
  1062.  * CToLevelZero() will increment the nesting level and then parse tokens
  1063.  * until level zero has been reached again.  If tokens are no longer
  1064.  * available this loop will stop.
  1065.  *
  1066.  ---------------------------------------------------------------------------*/
  1067.  
  1068. CToLevelZero(token, token_buffer, infname, outbuf)
  1069.     Token *token;
  1070.     Buffer *token_buffer;
  1071.     char *infname;
  1072.     char *outbuf;
  1073. {
  1074.     int nesting_level = 1;
  1075.  
  1076.     token->else_nesting_level = 0;
  1077.  
  1078.     while (nesting_level) {
  1079.         if (CGetToken(token_buffer->inbuf, token->cur_token,
  1080.                       &(token_buffer->token_line_location))) {
  1081.             if (token->cur_token[0] == '#') {
  1082.                 CParsePreprocessorDirective(token, token_buffer,
  1083.                                             infname, outbuf);
  1084.             }
  1085.             else {
  1086.  
  1087.                 /* only count open brace, parens and brackets within blocks
  1088.                  * of one element of an ifdef code block */
  1089.                 if (!token->else_nesting_level) {
  1090.                     if (strchr(C_open_brace, token->cur_token[0]))
  1091.                         nesting_level++;
  1092.                     else
  1093.                         if (strchr(C_close_brace, token->cur_token[0]))
  1094.                             nesting_level--;
  1095.                 }
  1096.             }
  1097.         }
  1098.         else
  1099.             nesting_level = 0;
  1100.     }
  1101. }
  1102.  
  1103.  
  1104. /*----------------------------------------------------------------------------
  1105.  *
  1106.  * CToPunctuator() will parse tokens until the next punctuator has been
  1107.  * reached.  If tokens are no longer available this loop will stop.  If this
  1108.  * loop is successful the found flag declared in the host routine will be
  1109.  * set.
  1110.  *
  1111.  ---------------------------------------------------------------------------*/
  1112.  
  1113. BOOLEAN CToPunctuator(token, token_buffer, infname, outbuf)
  1114.     Token *token;
  1115.     Buffer *token_buffer;
  1116.     char *infname;
  1117.     char *outbuf;
  1118. {
  1119.     BOOLEAN punctuator_found;
  1120.  
  1121.     /* init and parse through until the first punctuator is found */
  1122.     token->token_count = 0;
  1123.     punctuator_found = FALSE;
  1124.     while (!punctuator_found) {
  1125.         token->token_count++;
  1126.         CTokenSwap(token);
  1127.         if (!CNextToken(token, token_buffer, infname, outbuf)) {
  1128.             break;
  1129.         }
  1130.         else {
  1131.             if (IsPunctuator(token->cur_token[0]))
  1132.                 punctuator_found = TRUE;
  1133.         }
  1134.     }
  1135.  
  1136.     /* return value */
  1137.     return punctuator_found;
  1138. }
  1139.  
  1140.  
  1141. /*----------------------------------------------------------------------------
  1142.  *
  1143.  * CParseParens() will move through a declaration in parentheses and place
  1144.  * the correct valid token as prev_token.  This return TRUE if a '[' was seen
  1145.  * within the parens and false otherwise.
  1146.  *
  1147.  ---------------------------------------------------------------------------*/
  1148.  
  1149. BOOLEAN CParseParens(token, token_buffer, infname, outbuf)
  1150.     Token *token;
  1151.     Buffer *token_buffer;
  1152.     char *infname;
  1153.     char *outbuf;
  1154. {
  1155.     BOOLEAN token_found;
  1156.     BOOLEAN variable_seen;
  1157.     int brace_ignore = 1;
  1158.  
  1159.     token->else_nesting_level = 0;
  1160.  
  1161.     token_found = TRUE;
  1162.     variable_seen = FALSE;
  1163.     while (brace_ignore &&
  1164.            token_found) {
  1165.  
  1166.         token_found = CNextToken(token, token_buffer, infname, outbuf);
  1167.  
  1168.         if (token_found &&
  1169.             !token->else_nesting_level) {
  1170.             switch (token->cur_token[0]) {
  1171.  
  1172.                 case '(':
  1173.  
  1174.                     /* increment brace_ignore and continue */
  1175.                     brace_ignore++;
  1176.                     break;
  1177.  
  1178.                 case ')':
  1179.  
  1180.                     /* just decrement brace_ignore if it is positive. If
  1181.                      * brace ignore is not positive at this point then we
  1182.                      * certainly have a syntax error.  Ignore this fact if
  1183.                      * so. */
  1184.                     if (brace_ignore) {
  1185.                         brace_ignore--;
  1186.                     }
  1187.                     break;
  1188.  
  1189.                 case '[':
  1190.  
  1191.                     /* move to end of array bounds */
  1192.                     variable_seen = TRUE;
  1193.                     CToLevelZero(token, token_buffer, infname, outbuf);
  1194.                     break;
  1195.  
  1196.                 default:
  1197.                     CTokenSwap(token);
  1198.                     break;
  1199.             }
  1200.         }
  1201.     }
  1202.  
  1203.     return variable_seen;
  1204. }
  1205.  
  1206.  
  1207. /*----------------------------------------------------------------------------
  1208.  *
  1209.  * COutputCommaDelimitedToken() will output a token and then parse the
  1210.  * statement until ';' or ',' is reached.  The token is output if the passed
  1211.  * token type is requested from the command line.
  1212.  *
  1213.  ---------------------------------------------------------------------------*/
  1214.  
  1215. COutputCommaDelimitedToken(token, token_buffer, token_type, infname, outbuf)
  1216.     Token *token;
  1217.     Buffer *token_buffer;
  1218.     SymbolType token_type;
  1219.     char *infname;
  1220.     char *outbuf;
  1221. {
  1222.     BOOLEAN punctuator_found;
  1223.  
  1224.     /* output the token */
  1225.     COutputToken(token, token_buffer, token_type, infname, outbuf);
  1226.  
  1227.     /* go to the next list punctuator (',' or ';') */
  1228.     punctuator_found = TRUE;
  1229.     while (token->cur_token[0] != ',' &&
  1230.            token->cur_token[0] != ';' &&
  1231.            punctuator_found) {
  1232.         if (strchr(C_open_brace, token->cur_token[0])) {
  1233.             CToLevelZero(token, token_buffer, infname, outbuf);
  1234.         }
  1235.         punctuator_found = CToPunctuator(token, token_buffer, infname, outbuf);
  1236.     }
  1237. }
  1238.  
  1239.  
  1240. /*----------------------------------------------------------------------------
  1241.  *
  1242.  * CParseCommaDelimitedList() will parse a token list seperated by commas
  1243.  * until a ';' is found.  The tokens are output if the passed type is
  1244.  * requested from the command line.
  1245.  *
  1246.  ---------------------------------------------------------------------------*/
  1247.  
  1248. CParseCommaDelimitedList(token, token_buffer, token_type, infname, outbuf)
  1249.     Token *token;
  1250.     Buffer *token_buffer;
  1251.     SymbolType token_type;
  1252.     char *infname;
  1253.     char *outbuf;
  1254. {
  1255.     BOOLEAN punctuator_found;
  1256.  
  1257.     /* parse through the list */
  1258.     punctuator_found = TRUE;
  1259.     while (token->cur_token[0] != ';' &&
  1260.            punctuator_found) {
  1261.         punctuator_found = CToPunctuator(token, token_buffer, infname, outbuf);
  1262.         if (punctuator_found) {
  1263.             switch (token->cur_token[0]) {
  1264.  
  1265.                 case '(':
  1266.                     /* this is an embedded variable declaration, either a
  1267.                      * complex variable pointer or function pointer, fall
  1268.                      * through after picking out the internal token */
  1269.                     CParseParens(token, token_buffer, infname, outbuf);
  1270.  
  1271.                 case '[':
  1272.                 case ',':
  1273.                 case ';':
  1274.                 case '=':
  1275.  
  1276.                     /* this is one of the proper ending tokens for this type
  1277.                      * of declaration list, so output it and parse to the
  1278.                      * next correct punctuator */
  1279.                     COutputToken(token, token_buffer, token_type,
  1280.                                  infname, outbuf);
  1281.                     while (token->cur_token[0] != ',' &&
  1282.                            token->cur_token[0] != ';' &&
  1283.                            punctuator_found) {
  1284.                         if (strchr(C_open_brace, token->cur_token[0])) {
  1285.                             CToLevelZero(token, token_buffer, infname, outbuf);
  1286.                         }
  1287.                         punctuator_found = CToPunctuator(token, token_buffer,
  1288.                                                          infname, outbuf);
  1289.                     }
  1290.                     break;
  1291.                 default:
  1292.                     break;
  1293.             }
  1294.         }
  1295.     }
  1296. }
  1297.  
  1298.  
  1299. /*----------------------------------------------------------------------------
  1300.  *
  1301.  * CParseFunctionOrGlobalVariable() will parse a function, prototype or
  1302.  * global variable syntax.
  1303.  *
  1304.  ---------------------------------------------------------------------------*/
  1305.  
  1306. CParseFunctionOrGlobalVariable(token, token_buffer, infname, outbuf)
  1307.     Token *token;
  1308.     Buffer *token_buffer;
  1309.     char *infname;
  1310.     char *outbuf;
  1311. {
  1312.     char *line_buf;             /* the first token buffer */
  1313.     int charloc;                /* the char location of sbuf1 */
  1314.     int tokenline;              /* the line number of sbuf1 */
  1315.  
  1316.     BOOLEAN token_found;
  1317.     BOOLEAN punctuator_found;
  1318.     BOOLEAN last_token_known;
  1319.     BOOLEAN variable_seen;
  1320.  
  1321.     /* init */
  1322.     charloc = 0;
  1323.     tokenline = 1;
  1324.     line_buf = malloc(MAX_TOKEN_LENGTH);
  1325.     line_buf[0] = '\0';
  1326.  
  1327.     /* save the previous token */
  1328.     last_token_known = CIsDeclarationToken(token->prev_token);
  1329.     if (!last_token_known) {
  1330.  
  1331.         /* If this is not a known token then it may be a function name. Save
  1332.          * it then look further at the syntax.  This also may be a symbol
  1333.          * previously defined via a typedef which alters the syntax of C/C++ */
  1334.         strcpy(line_buf, token->prev_token);
  1335.         charloc = *(token->prev_char_location);
  1336.         tokenline = *(token->prev_token_line);
  1337.     }
  1338.  
  1339.     /* This is a function or prototype or global variable go to brace_ignore
  1340.      * level zero again. */
  1341.     variable_seen = CParseParens(token, token_buffer, infname, outbuf);
  1342.  
  1343.     /* Check to see if this is a function, prototype, or global variable. If
  1344.      * the token is a ';' and last_token_known is false then we assume a
  1345.      * function.  Strange variable declarations may fool this, but not
  1346.      * likely. If the character is a '(' then it is certainly a function or
  1347.      * prototype unless variable_seen is TRUE, then it is a variable. If the
  1348.      * character is a '[', ',' then it is certainly a variable declaration.
  1349.      * If the character is a ';' and last_token_known is true then it is a
  1350.      * variable declaration.  If the token is anything else then it is a
  1351.      * function. */
  1352.     token_found = CNextToken(token, token_buffer, infname, outbuf);
  1353.     if (token_found) {
  1354.         switch (token->cur_token[0]) {
  1355.  
  1356.             case ';':
  1357.  
  1358.                 /* determine if a prototype or a variable declaration. if the
  1359.                  * last_token_known is true then it is a global variable.  If
  1360.                  * the token was a symbol defined by a typedef then this
  1361.                  * distinction is incorrect since typedef actually alters
  1362.                  * syntax.  This is correct for the large majority of cases
  1363.                  * since most do not enclose simple variable declarations in
  1364.                  * parens. */
  1365.                 if (last_token_known) {
  1366.  
  1367.                     /* this is a global variable */
  1368.                     COutputToken(token, token_buffer, GlobalVariable,
  1369.                                  infname, outbuf);
  1370.                 }
  1371.                 else {
  1372.  
  1373.                     /* this is a prototype, copy saved token back to
  1374.                      * prev_token, output and continue */
  1375.                     strcpy(token->prev_token, line_buf);
  1376.                     *(token->prev_char_location) = charloc;
  1377.                     *(token->prev_token_line) = tokenline;
  1378.                     COutputToken(token, token_buffer, ProtoType,
  1379.                                  infname, outbuf);
  1380.                 }
  1381.                 break;
  1382.  
  1383.             case '(':
  1384.  
  1385.                 if (variable_seen) {
  1386.  
  1387.                     /* this is a variable declaration */
  1388.                     COutputCommaDelimitedToken(token, token_buffer,
  1389.                                                GlobalVariable,
  1390.                                                infname, outbuf);
  1391.                     CParseCommaDelimitedList(token, token_buffer,
  1392.                                              GlobalVariable,
  1393.                                              infname, outbuf);
  1394.                 }
  1395.                 else {
  1396.  
  1397.                     /* move to level zero again */
  1398.                     CToLevelZero(token, token_buffer, infname, outbuf);
  1399.  
  1400.                     /* obtain the next token */
  1401.                     token_found = CNextToken(token, token_buffer,
  1402.                                              infname, outbuf);
  1403.  
  1404.                     if (token_found) {
  1405.  
  1406.                         /* check if prototype, function or function pointer
  1407.                          * variable declaration */
  1408.                         switch (token->cur_token[0]) {
  1409.  
  1410.                             case '=':
  1411.  
  1412.                                 /* this is a function pointer variable
  1413.                                  * declaration */
  1414.                                 COutputCommaDelimitedToken(token,
  1415.                                                            token_buffer,
  1416.                                                            GlobalVariable,
  1417.                                                            infname, outbuf);
  1418.                                 CParseCommaDelimitedList(token, token_buffer,
  1419.                                                          GlobalVariable,
  1420.                                                          infname, outbuf);
  1421.                                 break;
  1422.  
  1423.                             case ';':
  1424.  
  1425.                                 /* this is a prototype, output it */
  1426.                                 COutputToken(token, token_buffer,
  1427.                                              ProtoType, infname, outbuf);
  1428.                                 break;
  1429.  
  1430.                             default:
  1431.  
  1432.                                 /* this is a function */
  1433.                                 COutputToken(token, token_buffer,
  1434.                                              Function, infname, outbuf);
  1435.  
  1436.                                 /* parse through function */
  1437.                                 punctuator_found = TRUE;
  1438.                                 while (token->cur_token[0] != '{' &&
  1439.                                        punctuator_found) {
  1440.                                     punctuator_found =
  1441.                                         CToPunctuator(token, token_buffer,
  1442.                                                       infname, outbuf);
  1443.                                 }
  1444.                                 if (punctuator_found) {
  1445.                                     CToLevelZero(token, token_buffer, infname, outbuf);
  1446.                                 }
  1447.                                 break;
  1448.                         }
  1449.                     }
  1450.                 }
  1451.                 break;
  1452.  
  1453.             case '[':
  1454.             case '=':
  1455.             case ',':
  1456.  
  1457.                 /* global variables */
  1458.                 COutputCommaDelimitedToken(token, token_buffer,
  1459.                                            GlobalVariable,
  1460.                                            infname, outbuf);
  1461.                 CParseCommaDelimitedList(token, token_buffer,
  1462.                                          GlobalVariable,
  1463.                                          infname, outbuf);
  1464.                 break;
  1465.  
  1466.             default:
  1467.  
  1468.                 /* this is a function, copy saved token back to prev_token,
  1469.                  * output and continue */
  1470.                 strcpy(token->prev_token, line_buf);
  1471.                 *(token->prev_char_location) = charloc;
  1472.                 *(token->prev_token_line) = tokenline;
  1473.                 COutputToken(token, token_buffer,
  1474.                              Function, infname, outbuf);
  1475.  
  1476.                 /* parse through function */
  1477.                 punctuator_found = TRUE;
  1478.                 while (token->cur_token[0] != '{' &&
  1479.                        punctuator_found) {
  1480.                     punctuator_found =
  1481.                         CToPunctuator(token, token_buffer, infname, outbuf);
  1482.                 }
  1483.                 if (punctuator_found) {
  1484.                     CToLevelZero(token, token_buffer, infname, outbuf);
  1485.                 }
  1486.                 break;
  1487.         }
  1488.     }
  1489.     free(line_buf);
  1490. }
  1491.  
  1492.  
  1493. /*----------------------------------------------------------------------------
  1494.  *
  1495.  * CParseNOP() will parse an as of yet unrecognized statement.  If I run into
  1496.  * a punctuator at this time then I have found either a structure declaration
  1497.  * (C++ 2.0), or a global variable declaration.  If the punctuator is '[',
  1498.  * ',', '=', or ';' then it is a global variable declaration.  If the
  1499.  * punctuator is a '{' then we have a structure declaration at this time we
  1500.  * should not run into any closing punctuators or syntax is in a bad way
  1501.  *
  1502.  ---------------------------------------------------------------------------*/
  1503.  
  1504. CParseNOP(token, token_buffer, infname, outbuf)
  1505.     Token *token;
  1506.     Buffer *token_buffer;
  1507.     char *infname;
  1508.     char *outbuf;
  1509. {
  1510.     BOOLEAN token_found;
  1511.  
  1512.     switch (token->cur_token[0]) {
  1513.         case ';':
  1514.         case '=':
  1515.         case ',':
  1516.         case '[':
  1517.  
  1518.             /* global variables are here */
  1519.             COutputCommaDelimitedToken(token, token_buffer,
  1520.                                        GlobalVariable,
  1521.                                        infname, outbuf);
  1522.             CParseCommaDelimitedList(token, token_buffer,
  1523.                                      GlobalVariable,
  1524.                                      infname, outbuf);
  1525.             token->extern_active = FALSE;
  1526.             break;
  1527.  
  1528.         case '{':
  1529.  
  1530.             /* this is a structure (C++ syntax) */
  1531.             /* output it */
  1532.             COutputToken(token, token_buffer, Structure, infname, outbuf);
  1533.  
  1534.             /* move through declaration */
  1535.             CToLevelZero(token, token_buffer, infname, outbuf);
  1536.  
  1537.             /* get the next token */
  1538.             token_found = CNextToken(token, token_buffer, infname, outbuf);
  1539.  
  1540.             /* if a token is available then output the list */
  1541.             if (token_found) {
  1542.                 CParseCommaDelimitedList(token, token_buffer,
  1543.                                          GlobalVariable,
  1544.                                          infname, outbuf);
  1545.             }
  1546.             token->extern_active = FALSE;
  1547.             break;
  1548.  
  1549.         case '(':
  1550.  
  1551.             CParseFunctionOrGlobalVariable(token, token_buffer,
  1552.                                            infname, outbuf);
  1553.             token->extern_active = FALSE;
  1554.             break;
  1555.  
  1556.         default:
  1557.  
  1558.             /* true NOP */
  1559.             break;
  1560.     }
  1561. }
  1562.  
  1563.  
  1564. /*----------------------------------------------------------------------------
  1565.  *
  1566.  * CParseDeclarationStatement() will parse struct, enum and union
  1567.  * declarations.  take the token just before the first punctuator, run
  1568.  * through the top level braces and parse for variables if the first
  1569.  * punctuator is a ';' then this is a global variable declaration, if the
  1570.  * first token[0] is a '{' then this is a global variable declaration
  1571.  *
  1572.  ---------------------------------------------------------------------------*/
  1573.  
  1574. CParseDeclarationStatement(token, token_buffer, type, infname, outbuf)
  1575.     Token *token;
  1576.     Buffer *token_buffer;
  1577.     SymbolType type;
  1578.     char *infname;
  1579.     char *outbuf;
  1580. {
  1581.     BOOLEAN token_found;
  1582.     BOOLEAN punctuator_found;
  1583.     BOOLEAN primary_parse;
  1584.  
  1585.     punctuator_found = CToPunctuator(token, token_buffer, infname, outbuf);
  1586.     if (punctuator_found) {
  1587.  
  1588.         /* init */
  1589.         primary_parse = TRUE;
  1590.  
  1591.         /* switch on current token */
  1592.         switch (token->cur_token[0]) {
  1593.  
  1594.                 /* this is truly an object declaration */
  1595.             case '{':
  1596.  
  1597.                 /* output only if this is not a variable declaration */
  1598.                 if (token->token_count != 1) {
  1599.  
  1600.                     /* output it */
  1601.                     COutputToken(token, token_buffer, type, infname, outbuf);
  1602.                 }
  1603.  
  1604.                 /* move through declaration and fall through */
  1605.                 CToLevelZero(token, token_buffer, infname, outbuf);
  1606.  
  1607.                 /* get the next token, if one not available then break out of
  1608.                  * case */
  1609.                 token_found = CNextToken(token, token_buffer, infname, outbuf);
  1610.                 if (!token_found)
  1611.                     break;
  1612.  
  1613.                 /* fall through to take care of variable declarations after
  1614.                  * setting pre-parse flag */
  1615.                 primary_parse = FALSE;
  1616.  
  1617.             case ';':
  1618.             case '=':
  1619.             case ',':
  1620.             case '[':
  1621.  
  1622.                 /* if this is the first seen then output it */
  1623.                 if (primary_parse) {
  1624.                     COutputCommaDelimitedToken(token, token_buffer,
  1625.                                                GlobalVariable,
  1626.                                                infname, outbuf);
  1627.                 }
  1628.  
  1629.                 CParseCommaDelimitedList(token, token_buffer,
  1630.                                          GlobalVariable,
  1631.                                          infname, outbuf);
  1632.                 break;
  1633.  
  1634.             case '(':
  1635.  
  1636.                 CParseFunctionOrGlobalVariable(token, token_buffer,
  1637.                                                infname, outbuf);
  1638.                 break;
  1639.  
  1640.             default:
  1641.  
  1642.                 /* not reached */
  1643.                 break;
  1644.         }
  1645.     }
  1646. }
  1647.  
  1648.  
  1649. /*----------------------------------------------------------------------------
  1650.  *
  1651.  * CParseTypeDefinition() parses the typedef statement.  take the token just
  1652.  * before the first *correct* punctuator, the ';', ',' or the '['.  Tag any
  1653.  * declarations being done here, get the next token
  1654.  *
  1655.  ---------------------------------------------------------------------------*/
  1656.  
  1657. CParseTypeDefinition(token, token_buffer, infname, outbuf)
  1658.     Token *token;
  1659.     Buffer *token_buffer;
  1660.     char *infname;
  1661.     char *outbuf;
  1662. {
  1663.     BOOLEAN token_found;
  1664.     BOOLEAN parens_found;
  1665.     BOOLEAN special_found;
  1666.  
  1667.     int token_count;
  1668.     SymbolType tmptype;
  1669.  
  1670.     token_found = CNextToken(token, token_buffer, infname, outbuf);
  1671.  
  1672.     if (token_found) {
  1673.  
  1674.         /* check the type of the token for future use */
  1675.         tmptype = CTokenType(token->cur_token);
  1676.  
  1677.         /* parse the typedef */
  1678.         parens_found = FALSE;
  1679.         special_found = FALSE;
  1680.         token_count = 0;
  1681.         while (token->cur_token[0] != ';' &&
  1682.                token->cur_token[0] != ',' &&
  1683.                token->cur_token[0] != '[' &&
  1684.                token_found &&
  1685.                !special_found) {
  1686.  
  1687.             /* parse for defines */
  1688.             if (token_found) {
  1689.  
  1690.                 /* handle the punctuator */
  1691.                 switch (token->cur_token[0]) {
  1692.  
  1693.                     case '{':
  1694.  
  1695.                         /* pass through any defines going on here */
  1696.                         if (token->cur_token[0] == '{') {
  1697.  
  1698.                             /* if the token count is > 1 here then we have a
  1699.                              * named declaration and need to output the
  1700.                              * token, output only if the token type is enum,
  1701.                              * struct, or union */
  1702.                             if (token_count > 1 &&
  1703.                                 (tmptype == Structure ||
  1704.                                  tmptype == Enumeration ||
  1705.                                  tmptype == Union)) {
  1706.                                 COutputToken(token, token_buffer,
  1707.                                              tmptype, infname, outbuf);
  1708.                             }
  1709.  
  1710.                             /* go back to level 0 */
  1711.                             CToLevelZero(token, token_buffer, infname, outbuf);
  1712.                         }
  1713.                         break;
  1714.  
  1715.                     case '(':
  1716.  
  1717.                         /* if this is the top level and we have already been
  1718.                          * through a set of parens then we know this to be a
  1719.                          * function typedef so we ouput the previous token,
  1720.                          * otherwise check the previous token and if it is a
  1721.                          * known keyword then just eat the token and continue */
  1722.                         if (parens_found) {
  1723.                             COutputToken(token, token_buffer,
  1724.                                          TypeDefinition, infname, outbuf);
  1725.                             CToLevelZero(token, token_buffer,
  1726.                                          infname, outbuf);
  1727.                             special_found = TRUE;
  1728.                         }
  1729.                         else {
  1730.  
  1731.                             /* Move back to the top level */
  1732.                             CParseParens(token, token_buffer,
  1733.                                          infname, outbuf);
  1734.  
  1735.                             /* next paren we find we know we have a token */
  1736.                             parens_found = TRUE;
  1737.  
  1738.                             /* swap to prevent loss of token */
  1739.                             CTokenSwap(token);
  1740.                         }
  1741.                         break;
  1742.  
  1743.                     default:
  1744.  
  1745.                         /* if we have another token after a paren parse then
  1746.                          * we know the token in the parens was nothing
  1747.                          * special */
  1748.                         parens_found = FALSE;
  1749.                         break;
  1750.                 }
  1751.             }
  1752.  
  1753.             /* get another token */
  1754.             CTokenSwap(token);
  1755.             token_found = CNextToken(token, token_buffer, infname, outbuf);
  1756.             token_count++;
  1757.         }
  1758.  
  1759.         /* output the typedef names if appropriate */
  1760.         if (token->prev_token[0] != '}' &&
  1761.             token_found) {
  1762.  
  1763.             /* don't output the first token if already done */
  1764.             if (!special_found) {
  1765.                 COutputCommaDelimitedToken(token, token_buffer,
  1766.                                            TypeDefinition,
  1767.                                            infname, outbuf);
  1768.             }
  1769.  
  1770.             /* parse through the rest of the typedef names */
  1771.             CParseCommaDelimitedList(token, token_buffer,
  1772.                                      TypeDefinition,
  1773.                                      infname, outbuf);
  1774.         }
  1775.     }
  1776. }
  1777.  
  1778.  
  1779. /*----------------------------------------------------------------------------
  1780.  *
  1781.  * CParseClass() will parse the C++ class syntax.  take the token just before
  1782.  * the first '{', ',' or ':' and run through the top level braces if there
  1783.  *
  1784.  ---------------------------------------------------------------------------*/
  1785.  
  1786. CParseClass(token, token_buffer, infname, outbuf)
  1787.     Token *token;
  1788.     Buffer *token_buffer;
  1789.     char *infname;
  1790.     char *outbuf;
  1791. {
  1792.     BOOLEAN token_found;
  1793.  
  1794.     token_found = TRUE;
  1795.     while (token->cur_token[0] != '{' &&
  1796.            token->cur_token[0] != ':' &&
  1797.            token->cur_token[0] != ';' &&
  1798.            token_found) {
  1799.  
  1800.         /* save the current token */
  1801.         CTokenSwap(token);
  1802.  
  1803.         /* get the next token */
  1804.         token_found = CNextToken(token, token_buffer, infname, outbuf);
  1805.     }
  1806.  
  1807.     /* output the class name */
  1808.     if (token_found) {
  1809.         COutputToken(token, token_buffer, Class, infname, outbuf);
  1810.  
  1811.         /* parse through the remainder of the statement */
  1812.         while (token->cur_token[0] != ';' &&
  1813.                token_found) {
  1814.             if (token->cur_token[0] == '{') {
  1815.  
  1816.                 /* move back to the zero level */
  1817.                 CToLevelZero(token, token_buffer, infname, outbuf);
  1818.             }
  1819.  
  1820.             token_found = CNextToken(token, token_buffer, infname, outbuf);
  1821.         }
  1822.     }
  1823. }
  1824.  
  1825.  
  1826. /*----------------------------------------------------------------------------
  1827.  *
  1828.  * CTags() tags an input stream assuming standard ANSI 2.0 C/C++ syntax.
  1829.  * Long tokens are allowed, ANSI requires only 31 significant, note that if
  1830.  * token length exceeds MAX_TOKEN_LENGTH this parser will die a horrible
  1831.  * death (or at the very least do ugly things to someone else's memory),
  1832.  * with the large size of MAX_TOKEN_LENGTH, anyone caught on this hook
  1833.  * deserves what they get...
  1834.  *
  1835.  ---------------------------------------------------------------------------*/
  1836.  
  1837. CTags(inbuf, infname, outbuf)
  1838.     char *inbuf;
  1839.     char *infname;
  1840.     char *outbuf;
  1841. {
  1842.     SymbolType type;            /* the type of the current token */
  1843.  
  1844.     Token *token;               /* current state variable */
  1845.     Buffer *token_buffer;       /* input buffer */
  1846.  
  1847.     BOOLEAN token_found;        /* set by CNextToken() */
  1848.  
  1849.     /* allocate the Buffer and Token memory */
  1850.     token = (Token *) malloc(sizeof(Token));
  1851.     token_buffer = (Buffer *) malloc(sizeof(Token));
  1852.  
  1853.     /* init the parser engine */
  1854.     point = 0;
  1855.     CParserInit();
  1856.     token->token_count = 0;
  1857.  
  1858.     /* init the current token buffers */
  1859.     token->cur_token = token->sbuf1;
  1860.     token->cur_char_location = &(token->charloc1);
  1861.     token->cur_token_line = &(token->tokenline1);
  1862.     token->cur_token[0] = '\0';
  1863.     *(token->cur_char_location) = 0;
  1864.     *(token->cur_token_line) = 1;
  1865.  
  1866.     /* init the previous token buffers */
  1867.     token->prev_token = token->sbuf2;
  1868.     token->prev_char_location = &(token->charloc2);
  1869.     token->prev_token_line = &(token->tokenline2);
  1870.     token->prev_token[0] = '\0';
  1871.     *(token->prev_char_location) = 0;
  1872.     *(token->prev_token_line) = 1;
  1873.  
  1874.     /* init the input buffers */
  1875.     token_buffer->token_line_location = 1;
  1876.     token_buffer->inbuf = inbuf;
  1877.  
  1878.     /* init Extern state */
  1879.     token->extern_active = FALSE;
  1880.  
  1881.     /* get the first token */
  1882.     token_found = CNextToken(token, token_buffer, infname, outbuf);
  1883.  
  1884.     /* loop through the file */
  1885.     while (token_found) {
  1886.  
  1887.         /* obtain the token type */
  1888.         type = CTokenType(token->cur_token);
  1889.  
  1890.         /* react on the token type */
  1891.         switch (type) {
  1892.  
  1893.             case NOP:
  1894.                 CParseNOP(token, token_buffer, infname, outbuf);
  1895.                 break;
  1896.  
  1897.             case Structure:
  1898.             case Enumeration:
  1899.             case Union:
  1900.                 CParseDeclarationStatement(token, token_buffer,
  1901.                                            type, infname, outbuf);
  1902.                 break;
  1903.  
  1904.             case TypeDefinition:
  1905.                 CParseTypeDefinition(token, token_buffer, infname, outbuf);
  1906.                 break;
  1907.  
  1908.             case Class:
  1909.                 CParseClass(token, token_buffer, infname, outbuf);
  1910.                 break;
  1911.  
  1912.             case Extern:
  1913.                 token->extern_active = TRUE;
  1914.                 break;
  1915.  
  1916.             default:
  1917.                 /* not reached */
  1918.                 break;
  1919.         }
  1920.  
  1921.         if (type != Extern &&
  1922.             type != NOP) {
  1923.  
  1924.             /* turn off the extern flag */
  1925.             token->extern_active = FALSE;
  1926.         }
  1927.  
  1928.         /* swap state variables and get the next token */
  1929.         CTokenSwap(token);
  1930.         token_found = CNextToken(token, token_buffer, infname, outbuf);
  1931.     }
  1932.  
  1933.     free(token);
  1934.     free(token_buffer);
  1935. }
  1936.  
  1937.  
  1938. /*----------------------------------------------------------------------------
  1939.  *
  1940.  * tag_suffix_c(), tag_suffix_h() and tag_suffix_e() are recognized procedure
  1941.  * names to the tags package in Epsilon and will be called automatically when
  1942.  * tagging needs to happen for these extensions.  These are replacement names
  1943.  * for the routines of the same name defined in tags.e.
  1944.  *
  1945.  ---------------------------------------------------------------------------*/
  1946.  
  1947. tag_suffix_c()
  1948. {
  1949.     /* the third parameter, the output buffer name is not actually used by
  1950.      * anyone but is left here for a time when this information may be
  1951.      * needed.  The current algorithm is to let the funtion add_tag() decide
  1952.      * the buffer name to send the output to.  As a little more than
  1953.      * coincedence, the name used here is the same used in add_tag() defined
  1954.      * in tags.e */
  1955.     CTags(bufname, filename, "-tags");
  1956. }
  1957.  
  1958. tag_suffix_h()
  1959. {
  1960.     tag_suffix_c();
  1961. }
  1962.  
  1963. tag_suffix_e()
  1964. {
  1965.     tag_suffix_c();
  1966. }
  1967.  
  1968. /* rebuild the default character maps */
  1969. when_loading()
  1970. {
  1971. #define UCLC(up, low)   def_char_class[low] = C_LOWER, \
  1972.                         def_char_class[up] = C_UPPER, \
  1973.                         def_srch_case_map[up] = low, \
  1974.                         def_case_map[low] = up, \
  1975.                         def_case_map[up] = low
  1976.  
  1977.     int i, j;
  1978.  
  1979.     for (i = 0; i < 256; i++)
  1980.         def_case_map[i] = def_srch_case_map[i] = i;
  1981.     for (i = 'A', j = 'a'; i <= 'Z'; i++, j++)
  1982.         UCLC(i, j);
  1983.     for (i = 131; i < 154; i++)
  1984.         def_char_class[i] = C_LOWER;
  1985.     for (i = 160; i < 164; i++)
  1986.         def_char_class[i] = C_LOWER;
  1987.     UCLC('Ç', 'ç');
  1988.     UCLC('Ä', 'ä');
  1989.     UCLC('Å', 'å');
  1990.     UCLC('É', 'é');
  1991.     UCLC('Æ', 'æ');
  1992.     UCLC('Ö', 'ö');
  1993.     UCLC('Ü', 'ü');
  1994.     UCLC('Ñ', 'ñ');
  1995. }
  1996.